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摘要 : 大 规模 星 表 的 快速 检索 是 交叉 证 认 、 多 波段 数据 融合 、 暂 现 源 搜寻 等 任务 实现 的 基础 ， 
其 是 大 视 场 暂 现 源 搜寻 需要 在 一 个 曝光 周期 内 完成 观测 结果 与 大 规模 星 表 的 检索 与 交叉 证 认 ， 
以 发 现 正在 变化 的 天 体 。 现 有 的 大 规模 星 表 通常 包含 数 十 亿 天 体 ， 为 了 在 有 限 内 存 的 情况 下 对 
其 进行 快速 检索 ， 提 出 了 一 套 解决 方案 。 通 过 使 用 基于 HEALPix 的 多 分 辩 率 动态 划分 算法 ， 
能 够 将 星 表 按 照 不 同 天 区 天 体 密度 切 分 成 大 小 合适 且 均 匀 的 星 表 文件 ， 进 而 在 开源 序列 化 组 件 
Protocol Buffers 基础 上 设计 出 一 套 针 对 星 表 的 序列 化 方案 ， 作 为 星 表 切 分 和 检索 时 的 中 间 存 储 
介质 ， 以 尽 可 能 提高 检索 时 的 速度 。 还 尝试 应 用 Peano-Hilbert 编号 代替 HEALPix JRA Z 型 编 
号 顺序 遍历 星 表 ， 提 高 了 缓存 命中 率 ， 实 现 了 对 大 规模 星 表 的 高 效 融 合 ， 方 便 对 数据 的 后 续 利 上 


与 研究 。 
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随 着 天 文 观测 设备 的 不 断 发 展 、 人 类 对 宇宙 的 探索 能 力也 不 断 提 高 。 特 别 是 最 近 几 十 年 
来 ， 计 算 机 和 电荷 耦合 器 件 (charge-coupled device, CCD) 在 天 文学 领域 的 广泛 使 用 使 得 人 
类 从 过 去 的 肉眼 观测 、 胶 片 观测 进入 到 数字 化 信息 时 代 。 多 个 大 规模 数字 巡天 项 目 预期 能 
获得 的 数据 量 远 远 超过 人 类 手工 处 理 的 极限 。 例 如 建设 在 智利 的 8.4 m 口径 望远镜 微 拉 . 鲁 
宾 天 文 台 (Vera C. Rubin Observatory Legacy Survey of Space and Time, LSST) 计划 从 
2022 年 开始 开展 为 期 10 a 的 南半球 18000 平方 度 巡 天 。 在 10 a 中 ， 每 一 个 天 区 将 会 被 巡 
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W 1000 次 以 上 ， 获 得 400 亿 天 体 的 观测 数据 以 及 一 个 空前 规模 的 动态 时 域 巡 天 数据 库 。 
星 计划 (Panoramic Survey Telescope and Rapid Response System, Pan-STARRS) 使 用 4 
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天 文学 进 


个 口径 为 1.8 m 的 望远镜 组 成 阵列 。 


P 


= 


一 方面 ， 
B) 量 级 


展 41 卷 


iz 


这 些 大 规模 巡天 观测 将 产生 数 以 太 字 节 (terabyte, TB) 乃至 拍 字 节 (petabyte, 
的 数据 。 例 如 ，Pan-STARRS 基于 第 一 台 望 远 镜 Pan-STARRS1 (PS1)， 该 项 目 已 
发 布 DRI、DR2 两 批 数据 。 在 2019 年 1 H 28 H 


发 布 的 PS1 DR2 星 表 中 ，ObjectThin 表 


包含 105 亿 行 数据 (A 5.4 TB), StackObjectThin 表 包 含 34.7 亿 行 数据 (A 1.2 TB)。 这 些 


数据 需要 及 时 处 到 


而 言 ， 若 直接 将 天 体 
SQL) 进行 锥 形 检 索 轩 
据 库 如 PostgreSQL 
息 系 统 (geographic information system, GIS) 所 设计 ， 更 多 地 
等 复杂 


据 坐 标 计算 区 域 id 读 取 该 
算法 (Zones Algorithm)". SEZ (Hierarchical Triangular Mesh, HTM)", mX 
树立 方 体 (Quad Tree Cube, Q3C)”、 多 级 等 面 


He 


H 


ry 


LE 与 分 析 。 男 一 方面 ， 其 中 
及 时 与 之 前 大 量 的 观测 数据 交叉 证 认 ， 以 判断 是 否 有 变化 的 天 体 。 


前 人 在 星 表 检 索 方 面 的 很 多 工作 都 基于 数据 库 而 实现 。 对 于 天 体 坐 标 这 类 空间 二 维 数据 
中 库 ， 在 使 用 结构 化 查询 语言 (structured query language, 
+， 需要 通过 复杂 的 三 角 函 数 计算 各 个 坐标 之 间 的 角 距 离 ” 。 少 部 分 数 


EAB 


的 暂 现 源 搜寻 类 巡天 每 次 观测 得 到 的 数据 又 需要 


J PostGIS 等 扩展 组 件 支持 对 空间 数据 的 检索 ， 但 是 这 些 组 件 为 地 理 信 


于 处 理 地 理 上 的 三 维 点 线 面 


区 域 ， 而 天 文 星 表 中 的 天 体 多 为 二 维 点 源 ， 且 涉及 天 文 坐标 与 地 理 坐 标的 转换 等 操 
作 ， 在 天 文 上 少见 应 用 。 


更 普遍 的 做 法 是 使 用 伪 二 维 球面 索引 算法 将 天 球 划分 成 多 个 子 区 域 ， 然 后 将 每 个 区 


=I 


域 赋予 一 个 id 编号 ， 星 


表 中 的 天 体 以 所 在 


区 域 的 天 体 ， 再 计算 2 


区 域 的 id 为 主键 存 入 数据 库 中 。 在 检索 时 根 


E 离 。 目前 球面 索引 算法 有 很 多 ， 例 如 条 


只 同 纬度 划分 法 (Hierarchical Equal Area 


isoLatitude Pixelisation, HEALPix)” 等 。 Berriman 等 人 "使 用 2MASS 全 天 源 星 表 (two 


micron all sky survey all-sky point source catalog ) ( 约 4.7 亿 天 体 ) 和 未 合并 的 HSC Æ 


(non-merged Hubble source catalog) ( 约 3.83 亿 天 体 ) 测试 了 HTM、HEALPix 的 不 同 层 级 
分 别 在 Solaris, Windows, Red Hat Linux 平台 下 的 PostgreSQL 数据 库 和 SQL Server 数 


据 库 的 检索 速度 。Szalay 等 人 ”开发 的 SkyServer 采 
隆 数 字 巡 天 (Sloan Digital Sky Survey, SDSS) 数据 的 在 线 检索 和 访问 。 
这 也 是 第 一 次 使 用 商业 数据 库 实 现 了 大 规模 天 文 数据 管理 
就 是 实现 对 多 个 星 表 的 交叉 证 认 与 融合 ， 高 丹 " 通 过 使 用 


BIE, SINS OH 


HTM 和 数据 库 实 现 了 对 数 十 万 量 级 星 表 的 检索 与 交叉 证 认 ， 但 没 能 解决 划分 边界 附近 天 
通过 同时 使 用 


微软 的 SQL Server 数据 库 和 HTM 


与 访问 。 


ERRAR 


SEE ma 
的 漏 源 问题 。Du 等 人 


ul 


F 认 ， 绥 解 了 漏 源 问 题 。 


的 一 个 重要 应 


Boch 等 人 "通过 使 


平台 CDS-Xmatch， 该 习 


进行 交叉 证 


出 ， 在 使 ) 
县 和 对 应 id 编 


认 。 


F 台 人 允许 


HEALPix 


本 
和 HTM 以 及 数据 库 实现 了 对 星 表 的 交叉 


| KD-Tree 和 HEALPix 实现 了 在 线 交 叉 证 认 


] 户 在 网 页 上 传 


自 定义 星 表 与 平台 自 带 或 之 前 上 传 的 星 


前 人 的 工作 已 经 i 


ESE (EA 
维 球面 索引 算法 对 
号 ， 在 检索 时 需要 找到 所 有 与 待 检索 id 相同 的 天 体 ， 交 | 


数据 库 可 以 实现 较 高 效 的 星 表 检 索 。 从 图 
表 进 行 基于 坐标 的 检索 时 ， 数 据 库 的 作用 是 存储 天 体 信 


四 的 对 比 中 可 以 看 


上 层 软件 计算 角 距 


3 期 


一 > 


离 并 加 以 过 滤 后 ， 才 
个 天 体 都 具有 相同 的 
所 有 天 体 保存 在 同一 文件 
也 可 以 实现 对 星 表 的 索引 与 检索 功能 。 


全 已 


能 得 


eRe, Se: 基于 文件 的 大 规模 星 表 高 效 索 引 与 融合 
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到 最 终 符 合 要 求 的 结果 。 根 据 层级 选择 的 不 同 ， 可 能 会 有 成 干 上 万 
区 域 ia， 在 这 种 特定 场合 下 ， 若 不 使 用 数据 库 ， 而 是 直接 将 相同 id 的 
中 ， 检 索 时 只 需 读 取 对 应 的 文件 即 可 得 到 该 id 编号 下 所 有 的 天 体 ， 


根据 坐标 计 相同 id 的 所 有 ] | [计算 待 检索 i 
文件 mana up 算 每 个 天 体 || 天 体 保存 在 同 | | | a I] 件 
区 域 编号 id Sacer + 区 域 的 id 
图 1 使 用 数据 库 与 文件 对 星 表 进 行 索引 与 检索 的 流程 对 比 


在 划分 时 


区 域 编号 对 于 数据 库 仅 是 一 个 


] 于 建立 索引 


的 数字 ， 但 是 HEALPix 等 类 似 算 


法 的 不 同 层级 、 同 一 层级 的 不 同 
表 的 存储 介质 时 ， 可 以 利 
外 ， 与 数据 库 这 类 商业 软件 不 同 ， 文 件 


区 域 之 间 的 id J 
这 些 特点 做 一 些 针 对 
具有 无 需 授 权 ， 通 用 性 更 好 ， 也 无 需 提 前 安装 配置 ， 


号 往往 有 一 定 的 关联 ， 在 使 用 文件 作为 星 


易于 维护 等 优点 。 在 诸如 偏远 台 


口 


低 ， 难 以 运行 数据 库 的 场合 ， 文 件 都 具有 独特 的 优势 。 


站 等 较 难 维护 ， 或 者 在 单 


星 表 的 优化 ， 提 升 索引 与 检索 的 效率 。 此 


片 机 、 小 型 探测 器 等 这 类 性 能 较 
因此 ， 本 文 尝试 使 用 文件 作为 星 表 检 


索 时 的 存储 介 


本 文选 择 了 HEALPix 作为 划分 的 基础 ， 该 方法 由 
子 
层级 越 大 ， 像 素 越 多 ， 单 位 像素 面积 越 小 ， 对 天 球 划分 的 分 辨 率 越 高 。HEALPix 最 开 
辐射 的 研究 与 分 析 ， 如 今 已 经 在 天 文学 研究 中 广泛 使 用 。Pineau 等 


定 的 层级 将 天 球 切 分 成 多 个 面积 相同 的 


= 


始 


Ab EA 


Bas 


应 用 于 宇宙 微波 


质 ， 并 加 以 优化 ， 以 提高 在 星 表 交叉 证 认 或 


区 域 ， 


融合 时 的 检索 效率 。 
Gorski 等 人 提出 ， 能 够 根据 预先 设 
称 之 为 “像素 ”， 每 个 像素 都 有 对 应 的 编 


人 使 用 HEALPix 作为 划分 方案 对 星 表 进行 了 交叉 证 认 测 试 。 原 始 HEALPix 只 能 以 


国 


定 分 辩 率 划分 球面 ， 之 后 有 各 种 多 分 辩 率 的 HEALPix 解决 方案 被 提出 ， 例 如 多 层级 覆盖 


天 


MRH)™, mhealpy" tE. ¥F 30 iM 


区 (multi-order coverage map, MOC)", 44}##2% HEALPix (multi-resolution healpix, 
] MOC 建立 的 多 


层级 覆盖 天 区 四 又 树 (multi- 


order coverage tree, MOC-Tree)， 从 而 对 不 规则 


等 人 ™ 发 布 的 mhealpy 是 一 套 多 分 辨 率 HEALPix 及 可 视 化 
率 模式 ， 其 中 一 种 允许 用 户 通过 自 定义 函数 选择 当前 区 域 的 划分 层级 ， 但 


区 域 星 表 进行 索引 。 Martinez-Castellanos 


是 受到 可 视 化 的 限 


的 Python 包 ， 支 持 两 种 多 分 


制 ， 某 个 区 域 只 能 被 一 个 层级 所 履 盖 。 而 


A 


星 表 的 切 分 不 需要 考虑 可 视 化 相关 的 限制 ， 本 文 尝 


试 允 许多 个 层级 的 像素 覆盖 同一 区 域 ， 实 


现 对 星 表 的 均匀 切 分 。 


天 文 星 表 在 计算 机 中 存储 和 交换 的 格式 以 逗号 分 隔 值 (comma-separated values, CSV) 


和 灵活 
VOTable 和 一 些 机 构 制 定 的 文本 或 二 进 各 


Ar TA. 


逗号 或 其 他 符号 进行 分 隔 ， 使 


符号 


图 像 传 输 系 统 (flexible image transport system, FITS)” 为 主 ， 此 外 常用 的 还 有 
test. CSV 格式 的 星 表 以 纯 文本 格式 存储 ， 使 用 
文本 编辑 器 即 可 读 取 和 修改 内 容 。 程 序 使 
表 的 天 体 坐 标 时 需要 进行 字符 串 和 浮 点 数 的 转换 ， 对 存 取 大 规模 星 表 的 速度 有 


] CSV FRÆ 
定 的 影响 。 
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FITS 是 由 国际 天 文学 联合 会 定义 的 信息 交换 格式 ， 最 初 是 为 了 传输 图 像 而 设计 ”， 之 后 扩 
展 到 星 表 等 更 复杂 的 数据 格式 ;FITS 格式 的 星 表 以 二 进 制 格式 按 列 存储 ， 读 写 需 要 依靠 第 


三 方 软件 或 库 。 


在 检索 星 表 时 仅 需 要 读 取 坐 标 等 少量 数据 ， 也 不 需要 考虑 可 读 性 。 另 外 这 些 文 件 仅 供 检 
索 程序 运行 时 使 用 ， 不 需要 对 外 分 享 。 可 以 考虑 通过 定制 专属 的 序列 化 协议 ， 对 这 些 数据 序 
列 化 ， 以 减少 中 间 格 式 转换 的 次 数 ， 达 到 更 好 的 存 取 性 能 。 

巡天 观测 扫描 的 天 空 区 域 通常 是 连续 的 ， 前 一 次 检索 的 部 分 数据 可 为 下 一 次 检索 所 用 。 


通过 选择 适当 的 缓存 策略 ， 


可 以 减少 文件 读 取 次 数 ， 提 高 数据 的 复 用 率 ， 并 实现 更 快 的 连续 


检索 。 除 此 之 外 ， 在 执行 多 个 大 规模 星 表 融 合 等 需要 对 大 量 天 体 交 叉 证 认 的 任务 时 ， 通 过 选 


合适 的 遍历 顺序 ， 可 以 提高 缓存 的 命中 率 ， 提 高 交叉 证 认 的 速度 。 
针对 在 基于 文件 的 情况 下 如 何 对 星 表 高 效 检索 的 问题 ， 本 文 提出 了 一 套 解决 方案 。 本 
文 第 2 章 研 究 如 何在 有 限 内 存 下 将 大 规模 星 表 切 分 成 合适 且 均 匀 的 星 表 子 集 ; 第 3 章 研 究 


如 何 对 切 分 后 的 星 表 子 集 做 高 效 检索 ， 第 4 章 探讨 如 何 使 用 开源 序列 化 库 对 星 表 高 效 存 取 ; 
第 5 章 将 讨论 实现 多 个 大 规模 星 表 的 交叉 证 认 与 融合 的 方法 ; 第 6 章 将 对 前 几 章 提出 的 方 
法 做 实验 测试 ， 第 7 章 进 行 总 结 。 


2 星 表 索 引 及 星 表 文 件 的 切 分 策略 


从 一 个 包含 有 X 个 天 体 的 星 表 中 搜寻 YY 个 特定 天 体 ， 若 不 对 星 表 做 任何 处 理 ， 直 接 从 


头 到 尾 按 顺 序 查找 ， 最 坏 情况 下 需 X x Y 次 检索 。 一 个 改进 方法 是 用 诸如 KD-Tree 等 多 维 
数据 结构 建立 索引 加 快 检 索 时 的 速度 。 受 制 于 当前 计算 机 体系 结构 ， 这 些 数 据 结构 建立 和 检 
索 只 能 在 内 存 中 进行 。 但 对 于 动 纯 数 TB 的 星 表 ， 一 方面 计算 机 内 存 难以 将 星 表 全 部 读 入 到 


内 存 ， 另 一 方面 从 硬盘 中 将 星 表 完整 读 取 一 遍 也 会 消耗 大 量 时 间 。 为 了 加 快 查找 速度 ， 需 要 


针对 性 的 优化 。 


对 于 星 表 来 说 ， 有 以 下 两 种 基本 的 基于 坐标 的 查询 操作 : 
1) 最 近邻 天 体检 索 ， 即 给 定 坐标 ， 检 索 星 表 中 与 之 最 为 接近 的 天 体 ; 
2) 锥 形 检索 ， 即 给 定 坐标 和 距离 闪 值 ， 检 索 星 表 中 所 有 距离 该 坐标 小 于 该 闪 值 的 天 体 


子 集 。 


这 两 种 操作 只 需要 检索 给 定 坐标 附近 区 域内 天 体 ， 并 不 需要 将 整个 星 表 都 读 取 并 检索 


一 遍 


中 ， 并 给 切 分 到 的 每 个 文人 
计算 所 歼 盖 到 区 域 的 编号 ， 


因此 ， 在 检索 前 可 以 将 星 表 按 照 天 体 的 坐标 执行 切 分 ， 把 邻近 的 天 体 切 分 到 同一 个 文件 


赋予 一 个 特定 的 编号 。 在 检索 时 只 需要 根据 待 检索 坐标 等 信息 ， 
并 根据 该 编号 读 取 并 检索 相应 的 文件 ， 这 样 就 可 以 避免 读 取 整个 


AA 


tr 


表 ， 从 而 大 大 提高 查询 效率 。 


切 分 出 的 星 表 子 集 应 做 到 大 小 合适 且 尽 量 均匀 。 若 单个 文件 内 天 体 数 量 太 多 ， 则 检索 时 


读 取 时 间 和 建立 索引 的 时 间 较 长 ， 影 响 检索 的 效率 ;， 若 数量 太 少 ， 则 每 次 检索 需要 加 载 大 重 
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的 星 表 文 件 ， 而 且 硬 盘 对 小 文件 的 随机 读 写 速度 远 远 小 于 顺序 读 写 ， 检 索 时 需要 跨越 多 个 星 
表 文 件 ， 极 限 情 况 下 甚至 会 退化 成 顺序 检索 ， 造 成 效率 的 下 降 。 
因而 ， 需 要 对 切 分 后 单个 星 表 文件 天 体 数 量 上 下 限 做 出 限制 ， 以 最 大 化 星 表 检 索 效 率 。 
2.1 多 分 辩 率 HEALPix 星 表 切 分 算法 

在 星 表 中 ， 天 体 的 位 置 坐标 作为 必 不 可 少 的 信息 之 一 ， 适 合作 为 切 分 的 首选 依据 。 但 直 
接 按照 赤 经 和 赤 纬 的 数值 线性 划分 得 到 的 区 域 面 积 不 等 ， 难 以 实现 均匀 的 划分 ， 本 文选 择 能 
将 天 球 等 面积 划分 的 HEALPix 作为 切 分 的 基础 。 

虽然 HEALPix 对 天 球 的 划分 是 等 面积 的 ， 但 是 天 体 在 天 球 中 的 分 布 往往 是 不 均匀 的 。 
例如 ， 对 于 一 个 以 河内 恒星 为 主 的 星 表 来 说 ， 银 心 方向 的 天 体 密度 往往 大 于 反 银 心 方向 或 
者 垂直 于 银 道 面 方向 。 原 始 的 HEALPix 只 能 以 一 个 固定 的 层级 划分 天 球 ， 导 致 不 同 区 域 天 
体 数量 相差 较 大 ， 以 此 切 分 得 到 的 星 表 文 件 也 会 有 较 大 的 体积 差异 ， 影 响 对 星 表 处 理 的 效 
率 。 为 了 保证 切 分 出 来 的 星 表 尽 可 能 均匀 ， 本 文 提 出 了 多 个 HEALPix 层级 共存 的 星 表 切 分 
算法 ， 能 够 根据 区 域 天 体 的 密度 动态 选取 一 个 合适 的 切 分 层次 。 

HEALPix 首先 将 天 球 划 分 成 12 个 等 面积 的 大 区 域 ， 并 在 此 基础 上 根据 一 个 设 定 的 层 
级 (WN k) 将 整个 天 球 划 分 成 12 x 4* 个 等 面积 的 小 区 域 。k 值 越 大 ， 划 分 精度 越 细 ， 分 辨 
KRA. k= {0,1,2} 时 的 划分 如 图 四 所 示 。 


PP 一 -PP 一 | 
0 5 10 0 20 40 0 50 100 150 
HEALPix 编 号 HEALPix 编 号 HEALPix 编 号 


图 2 ”从 左 至 右 分 别 为 HEALPix Æ k=0, k=1, k= 2 时 对 球面 的 划分 情况 


HEALPix 支持 RING 和 NESTED 两 种 编号 模式 。RING 模式 下 ， 从 北极 到 南极 ， 
相同 纬度 的 区 域 形成 一 个 环 ， 在 环 内 按照 顺序 依次 编号 。NESTED 模式 下 ， 将 第 i 层 
编号 为 npixi 的 区 域 继续 划分 成 4 份 ， 即 可 得 到 4 个 第 i 十 1 层 的 区 域 , 编号 范围 是 
[4 x Npixi 4X Npixi 十 3]。 这 样 的 特性 非常 适合 应 用 四 又 树 。 因 此 ， 本 文选 择 在 NESTED 模 
式 下 使 用 四 叉 树 作为 联系 起 不 同 层次 区 域 之 间 的 索引 方案 。 

四 叉 树 是 一 种 基于 空间 递归 分 解 思想 的 分 层 数据 结构 。 树 的 根 节点 可 以 代表 总 的 区 域 ， 
将 该 区 域 划分 成 4 个 子 区域 后 ， 每 个 子 区 域 都 可 以 用 四 叉 树 的 一 个 子 节点 来 表示 。 每 个 子 
区 域 还 可 以 再 细 分 为 四 个 更 小 的 区 域 ， 这 个 过 程 可 以 一 直 递 归 进 行 ， 直 到 达到 所 需 的 分 辩 
率 ”。 由 又 树 与 HEALPix 层级 之 间 的 映射 关系 如 图 加 所 示 。 
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图 3 不同 层级 的 相同 区 域 可 以 用 四 叉 树 的 不 同 节点 来 表示 


由 于 HEALPix 不 同 层级 区 域 都 是 由 最 初 的 12 个 区 域 划分 而 来 ， 所 以 可 建立 12 棵 四 又 
树 ， 每 棵 树 的 根 节 点 代表 大 = 0 时 的 12 SK, MER, Sekai A 
划分 区 域 一 一 对 应 。 树 的 每 个 非 叶 节 点 都 有 4 个 子 节点 ， 指 向 下 一 层 的 4 个 子 天 区 。 每 个 
子 节点 的 npix 编号 与 父 节 点 有 相同 的 二 进 制 前 级 。 这 样 就 实现 了 四 叉 树 与 HEALPix 多 个 
层级 划分 区 域 的 一 一 对 应 ， 可 以 使 用 对 树 的 相关 操作 来 实现 对 天 区 的 有 序 访问 。 

由 于 HEALPix 在 不 同 层级 下 对 区 域 均 是 从 0 开始 编号 ， 因 此 不 同 层级 之 间 的 区 域 编号 
会 产生 冲突 ， 这 种 二 维 编号 方式 会 影响 检索 的 效率 。 本 文采 用 MOC 中 的 NUNIQ 编码 方 
式 ， 赋 予 不 同 层 级 的 区 域 一 个 唯一 的 编号 。 层 次 为 KE， 编 号 为 npix 的 区 域 的 UNIQ 编号 可 
通过 下 式 计算 : 


Nung = 4 x 4% + npix (0 S npix <3 x 47) ， (1) 

逆 运 算 为 : 
k = [logo(Nuntq/4)/2] ， (2) 
Npix = Nunta 4 . (3) 


由 于 大 规模 星 表 大 小 N 往往 会 远 远大 于 可 用 内 存 容量 M， 而 程序 运行 时 所 能 读 取 的 星 
表 又 不 能 大 于 M。 如 图 团 所 示 ， 此 时 就 需要 将 星 表 事先 分 割 成 [N/M] 块 局 部 星 表 ， 每 块 
大 小 都 小 于 M。 这 样 ， 程 序 每 次 都 可 以 将 一 块 局 部 星 表 完整 读 入 到 内 存 执行 切 分 ， 之 后 清 
空 内 存 并 读 取 下 一 块 局 部 星 表 。 而 对 多 个 局 部 星 表 的 切 分 后 直接 的 合并 ， 并 不 等 同 于 对 原始 
星 表 的 切 分 结果 ， 需 要 再 次 利用 四 又 树 归 并 。 所 以 本 文 的 星 表 切 分 算法 分 成 两 步 : 第 一 步 是 
对 星 表 的 局 部 切 分 ， 第 二 步 是 将 多 个 局 部 切 分 的 星 表 归并 。 
2.2” 星 表 的 局 部 切 分 

首先 需要 指定 一 个 参数 ks， 代表 所 能 使 用 的 HEALPix 的 最 大 层级 ， 并 作为 四 叉 树 
的 最 大 层级 。 但 kmx 越 大 ， 程 序 运行 时 消耗 的 内 存 也 越 多 。 
第 一 步 是 四 又 树 的 建立 与 星 表 的 读 取 。 如 上 文 所 述 ， 建 立 12 棵 四 叉 树 ， 每 棵 树 有 kmax 
层 ， 第 i(ie [0, kwax —1]) BA 4 个 节点 。12 棵 树 共计 geat 一 4 个 节点 ， 每 个 节点 都 有 
一 个 UNIQ 编号 并 与 天 球 上 一 个 区 域 相对 应 。 
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无 序 星 表 .partl 
无 序 星 表 .part2 
无 序 星 表 .part3 
无 序 星 表 .part4 
无 序 星 表 .part5 


无 序 星 表 .part6 


TES HC, 


PRET 


等 ， 基于 文件 的 大 规模 星 表 高 效 索引 与 融合 


分 后 星 表 块 内 


小 为 K 的 原始 星 局 部 切 
大 小 为 K 的 原始 星 表 局 部 切 分 a ae 
图 4 ”对 远大 于 内 存 容量 的 无 序 原始 星 表 的 切 分 处 理 的 过 程 


四 又 树 的 每 个 节点 内 有 一 个 变量 C 代表 该 节点 对 应 区 域内 的 天 体 数量 
0。 每 读 取 星 表 中 一 个 天 体 信息 ， 就 


有 序 星 表 .part1 


有 序 星 表 .part2 


有 序 星 表 .part3 


有 序 星 表 .part4 


有 序 星 表 .part5 


多 个 分 块 归 
得 到 完整 结果 


=r 


有 序 星 表 .part6 


并 


里 ， 


初始 时 为 


民 据 它 的 坐标 值 ， 分 别 计算 出 该 坐标 在 每 个 层级 下 的 


HEALPix 的 区 域 编号 。 并 根据 此 编号 计算 对 应 的 UNIQ 编号 ， 同 时 将 对 应 的 节点 C 值 加 


1。 即 实现 了 天 体 在 
当 程 序 将 一 块 局 


alia 


四 又 树 中 的 索引 。 
部 星 表 读 入 到 内 存 # 
事先 指定 一 个 切 分 装 值 TT， 在 不 同 切 分 模式 下 作 》 


用 四 又 树 索 引 后 ， 将 执行 切 分 操作 。 切 分 算 ; 
5 单个 星 表 文 件 的 天 体 数量 上 限 或 者 下 限 ， 


aS 
法 需要 


当 人 遍历 到 某 一 节点 时 ， 根 据 该 节点 所 履 盖 区 域内 的 天 体 总 数 与 闷 值 了 相 比 较 ， 以 确定 下 一 


步 的 操作 。 在 递归 切 分 时 ， 会 遇 到 以 下 3 种 情 


1) 父 节点 的 C 值 和 
2) 父 节点 的 C 值 大 
3) 已 到 达 kmax 层 ， 


况 : 


4 个 子 节点 中 的 C 值 


均 大 于 T, WAS eR 
于 了 ， 且 存在 子 节点 的 C 值 小 于 了 的 节点 ， 处 理 方式 见 


yup 


各 当前 节点 内 的 天 体 切 分 ， 


在 星 表 分 布 不 均匀 的 情 
区 的 天 体 ， 会 出 现 南天 区 上 


天 
所 有 天 体 切 分 即 可 。 
对 于 情况 (2)， 
1) “激进 ” 方 
将 子 节 点 对 应 


分 方案 之 一 ， 
2) “保守 ”方式 。 
域 的 天 体 切 分 到 对 应 文 伯 


3) “中立” 方式。 分 别 访问 该 
其 子 节点 ， 并 得 到 一 个 返 
T， 则 不 再 遍历 其 子 节 点 ， 而 是 将 C 的 值 作为 ” 返回 
回 值 后 计算 剩余 未 被 切 分 的 天 体 数目 ， 若 总 数 大 于 全 ， 则 以 父 节点 的 名 义 将 这 些 天 体 切 分 


返 


FR- X C 值 
区 域 的 天 体 切 分 至 对 应 文件 中 ， 
将 4xp 和 4xp 十 3 的 节点 各 自 切 分 到 两 个 文件 中 。 
在 本 文中 按照 其 特点 将 其 命名 为 “激进 ”方式 。 
六 点 中 存在 1 个 C 值 小 于 了 的 节点 ， 就 将 父 

并 停止 遍历 其 子 节点 ， 即 将 图 日 中 编号 为 p 的 父 节 
AT Ts W 
Po 后 该 节点 
父 节点 收 到 各 个 子 节 点 的 


只 要 4 ATH 


FR, 


回 


况 下 ， 例 如 北半球 地 面 望远镜 受 地 理 纬度 的 限 种 


又 可 以 分 为 以 下 3 种 处 理 方式 ， 如 图 日 举例 所 示 。 
点 继续 遍历 其 子 节点 ;对 小 于 了 的 子 节点 ， 
点 的 向 下 递归 ， 即 在 图 日 例 中 


该 方式 是 mhealpy 中 所 提供 的 2 个 切 


APT 的 子 节 


Bia 


O 


并 停 


IEF A 


并 停止 向 下 裔 历 。 


节点 的 4 个子 节点 ， 若 该 节点 C 值 


fr, 代表 了 对 应 区 域 有 7 个 天 体 被 切 分 
至 父 节点 。 


1 难以 观测 到 南 
PAR RA C 值 也 小 于 了 人 的 情况 ， 此 时 为 特例 情况 ， 将 根 节点 内 


则 


节点 对 应 区 
点 切 分 。 

1 继续 遍历 
C 值 小 于 
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HEALPix NESTED 45, (ik +1 层 编号 为 4 x p, 4x p+3 的 两 个 子 


区 域内 的 天 体 数 量 少 于 


到 对 应 文件 中 ， 并 返 


区 域 大 于 


BE. AWA “GE. 
图 5 


“ 保守 a 


回 总 数 ， 若 小 于 全 ， 则 将 已 切 分 的 数 


“中 立 ” 三 种 切 分 方式 得 到 的 
星 表 切 分 情况 (2) 时 的 3 种 处 理 方式 


星 表 子 集 的 编号 和 天 体 数 量 。 


有恒 
[==] 


返回 至 更 上 一 层 节 点 。 依 次 类 


推 ， 直 到 该 节点 总 数 大 于 了， 或 到 达 根 节点 时 将 天 体 切 分 到 文件 中 。 图 中 假设 4xp 十 1 和 
4 xp 十 2 区域 已 全 被 切 分 。 


不 同 处 理 方式 之 间 的 优 缺 点 比较 见 表 趾 经 过 对 比 不 难看 出 ， 本 文 所 提出 的 “中 立 


vy” 切 


分 方式 在 理论 上 可 以 切 分 出 最 均衡 的 星 表 文件 ， 适 合作 为 实际 应 用 时 的 首选 切 分 方式 。 
表 1 ”不同 切 分 方式 的 优 缺 点 对 比 
KH TA Be 
l | E 当 4 个 子 节点 中 有 一 个 小 于 下 时 ， 则 将 整 
> HAG MAE ER EL EKF T ( 特 
保守 < col 个 父 节点 一 并 切 分 输出 ， 极 端 情况 下 切 分 
See eee 出 的 文件 可 能 会 很 大 。 
ELAR LUKE WM, Jet 某 个 天 区 可 能 同时 被 多 个 层级 所 覆盖 ， 但 
增加 返回 值 的 方式 将 被 切 分 的 目标 数量 传 ”该 天 区 的 目标 只 存在 于 层次 最 大 的 文件 中 。 
中 立 。 递 给 父 节点 汇总 。 这 种 方式 使 得 切 分 后 星 “。 即 虽然 重 登 ， 但 不 会 重复 。 这 一 特 点 对 星 
表 内 天 体 的 数目 会 在 [7T,4 x T) 之 间 (特例 。 表 的 检索 无 影响 ， 但 在 可 视 化 时 无 法 将 所 
情况 时 除外 )， 大 小 较 均衡 有 区 域 绘制 在 一 副 天 球 图 像 上 。 
切 分 后 单个 星 表 文件 的 天 体 数量 严格 小 于 a 
VE 能 蔬 量 小 Ẹ 出 
BGE T, MET 的 大 小 即 为 切 分 出 的 星 表 文件 > ee 
的 数目 上 限 。 MAP 
在 切 分 完成 之 后 ， 清 空 内 存 中 的 星 表 ， 若 星 表 未 读 取 完毕 ， 则 继续 读 取 星 表 ， 并 重复 上 
述 切 分 步 又， 直至 所 有 星 表 读 取 完 毕 ， 完 成 星 表 的 局 部 切 分 。 
2.3 ”局 部 切 分 星 表 的 归并 
一 个 无 序 的 星 表 经 过 [N/M] 次 局 部 切 分 后 ， 得 到 了 [N/M] 块 局 部 切 分 的 星 表 文件 集 
Ls 


A» 


每 块 集合 内 有 不 定数 量 的 星 表 文 件 ， 如 图 团 所 示 。 虽 然 块 内 的 天 体 都 按照 所 在 区 域 划 


分 到 各 自 的 文件 中 ， 但 分 块 与 分 块 之 间 却 是 互相 独立 的 。 因 此 需要 归并 各 个 分 块 的 星 表 ， 得 
到 对 原始 星 表 完整 的 切 分 结果 。 


3 期 张 琦 乾 ， 等 : 基于 文件 的 大 规模 星 表 高 效 索 引 与 融合 437 


同样 是 建立 12 棵 对 应 的 四 叉 树 。 从 每 棵 树 的 根 节 点 开始 ， 按 照 深度 优先 的 顺序 遍历 树 
的 各 个 子 节点 。 若 某 个 局 部 切 分 的 星 表 中 存在 该 节点 对 应 的 星 表 文 件 ， 则 读 取 到 内 存 ， 并 更 
新 对 应 四 又 树 节 点 中 的 C 值 。 之 后 依次 递归 遍历 该 节点 的 4 个 子 节点 ， 并 接受 各 个 子 节 点 
的 返回 值 ( 仅 “ 中 立 ” 模 式 有 返回 值 )。 

Ss 4 个 子 节 点 并 返回 到 当前 节点 时 ， 则 意味 着 以 该 节点 为 根 的 所 有 子 节点 均 已 
被 访问 过 ， 星 表 中 该 节点 所 在 区 域 的 所 有 天 体 均 已 被 访问 过 ， 或 留 在 内 存 中 ， 或 已 经 在 遍历 
某 个 子 节 点 时 被 切 分 到 最 终 星 表 文 件 中 。 此 时 ， 与 局 部 切 分 过 程 类 似 ， 根 据 切 分 模式 、 阔 值 
了 和 当前 节点 所 剩余 的 天 体 数 量 ， 判 断 是 否 执 行 切 分 。“ 中 立 ” 模 式 还 需 向 父 节点 返回 对 应 
的 值 。 此 时 切 分 得 到 的 星 表 文件 即 为 归并 之 后 的 星 表 文 件 。 此 过 程 不 断 进行 ， 最 后 实现 对 局 
部 星 表 的 归并 。 

图 日 显示 了 未 切 分 之 前 的 星 表 和 “激进 ”模式 下 动态 切 分 后 的 星 表 。 可 以 看 到 ， 天 体 密 
的 区 域 切 分 的 精细 程度 比较 高 ， 天 体 稀 朴 的 区 域 切 分 精细 度 较 低 ， 保 持 了 每 个 切 分 区 域 天 
体 数量 的 均衡 。 


人 TREE 


250 500 750 
相对 天 体 密度 天 体 数量 
a) b) 


VE: VA “dE” TTAB, BEEN 1000, a) 图 是 原始 星 表 的 天 体 相 对 密度 图 ，b) 图 是 切 分 之 后 ， 颜 色 
表 该 区 域内 的 天 体 数量 分 布 ( 星 表 局 部 区 域 有 数据 缺失 )。 


图 6 星 表 动态 切 分 示意 图 


a 


3 切 分 后 星 表 的 检索 


在 将 星 表 按照 上 述 切 分 算法 切 分 之 后 ， 每 个 切 分 后 的 星 表 文件 都 有 一 个 UNIQ 编号 ， 
代表 了 其 所 覆盖 天 区 。 在 检索 时 ， 根 据 不 同 检索 方式 ， 将 待 检索 区 域 转换 为 对 应 的 UNIQ 
编号 列表 并 读 取 对 应 的 文件 。 

3.1 区域 检 索 

由 于 “中 立 ” 模 式 下 多 重 覆 盖 的 特性 ， 对 于 最 高 层级 的 某 个 区 域 来 说 ， 该 区 域内 的 天 体 
只 会 存在 于 该 区 域 所 在 的 节点 或 距离 该 节点 最 近 的 有 星 表 子 集 存在 的 上 层 节 点 中 。 而 一 个 
非 最 高 层级 的 区 域内 天 体 可 能 会 分 散在 多 个 层级 的 不 同 星 表 子 集 文件 中 ， 此 时 需要 遍历 该 
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区 域 的 父 节点 和 子 节点 查询 。 
如 果 想 要 在 切 分 后 星 表 中 检索 到 某 个 区 域 ， 例 如 第 层 ，HEALPix 编号 为 pix 的 节点 
所 履 盖 区 域内 全 部 天 体 。 首 先 从 该 pir 节点 开始 ， 向 上 递归 访问 其 父 节 点 ， 直 到 访问 到 第 一 
个 存在 星 表 子 集 文件 的 节点 ， 读 取 文 件 内 所 有 满足 编号 在 目标 区 域内 的 天 体 到 内 存 中 。 若 
小 于 kwax， 则 还 需要 依次 起 历 该 piz 节点 的 所 有 子 节点 ， 并 将 子 节点 中 存在 对 应 的 星 表 子 
集 的 文件 全 部 读 取 ， 最 终 得 到 符合 要 求 的 天 体 信 息 。 
若 待 检索 区 域 是 一 个 多 边 形 ， 则 可 以 将 该 多 边 形 区 域 导 入 到 MOC 中 ， 得 到 对 应 区 域 的 
UNIQ 列表 。 再 对 该 UNIQ 列表 中 的 每 个 区 域 进行 上 述 的 区 域 查询 ， 并 汇总 ， 即 可 得 到 最 
终 的 检索 结果 。 
3.2 ”对 坐标 的 检索 

若 给 定 一 个 坐标 和 闵 值 ， 要 求 检索 以 坐标 为 圆心 ， 阔 值 为 半径 内 的 所 有 目标 ， 首 先 使 用 
HEALPix 自 带 的 query_disc 函数 计算 得 到 在 最 大 层次 下 被 该 区 域 履 盖 得 到 的 pix 列表 ， 将 
列表 中 的 每 一 个 pix 执行 上 述 区 域 查询 ， 并 对 已 经 读 取 的 星 表 做 好 标记 避免 重复 读 取 。 

对 于 两 个 在 天 球 上 的 坐标 (ai, 51) 和 (az, 62)， 他 们 之 间 的 角 距 离 d 可 由 Haversine A 
RAH: 


a, = a 


d= 2arcsin sin (2 3) + cosdcosdsin? ( ) . (4) 


Rt AY ZEA a oo Sd TP SHES AIA os FY FA ES F BEL A) ts AA BG TI Re, A 
索 的 结 

而 在 最 近邻 检索 时 ， 待 检索 坐标 与 最 近邻 天 体 可 能 不 在 kma 层级 下 同一 个 区 域 中 ， 所 
以 需要 读 取 与 该 区 域 相 邻接 区 域内 的 所 有 天 体 。 读 取 后 通过 Haversine 公式 计算 与 待 检索 坐 
标的 距离 ， 找 到 与 待 检索 目标 距离 最 近 的 天 体 。 


4 数据 的 高 效 存 取 


数据 在 内 存 中 通常 是 以 对 象 、 结 构 体 、 数 组 、 列 表 等 形式 连续 或 离散 地 存储 于 不 同 的 区 
域 供 CPU 访问 和 操作 。 当 内 存 中 的 数据 需要 被 号 入 到 文件 或 通过 网 络 传输 时 ， 则 需要 对 其 
进行 编码 (也 称 之 为 序列 化 (serialization)、 编 组 (marshalling)) 为 字 节 序列 ， 反 过 程 则 称 之 
为 解码 (或 反 序 列 化 (deserialization)、 反 编组 (unmarshalling))”。 例 如 将 内 存 中 的 天 体 以 
CSV 格式 保存 到 硬盘 即 是 对 星 表 序 列 化 的 过 程 ， 对 CSV 星 表 的 读 取 则 是 反 序列 化 过 程 。 

在 切 分 过 程 中 ， 星 表 的 每 个 天 体 都 会 被 读 取 两 次 ， 写 入 两 次 ， 数 十 亿 天 体 将 会 产生 大 量 
硬盘 I/O 并 消耗 大 量 的 时 间 。 一 方面 ， 由 于 星 表 的 坐标 等 数据 都 是 以 浮 点 数 的 形式 存储 在 
内 存 中 ， 如 果 简 单 地 以 CSV 等 文本 格式 存储 ， 需 要 解析 每 行 的 各 个 表 项 以 及 对 浮 点 数 与 字 
符 囊 之 间 相 互 转换 ， 由 此 产生 的 计算 量 和 耗 时 也 不 容 小 需 。 男 一 方面 ， 在 切 分 时 ， 程 序 只 读 
取 天 体 的 坐标 ， 其 他 的 物理 参数 则 不 必 考 虑 。 

为 了 尽 可 能 地 提升 性 能 ， 本 文 以 开源 的 高 性 能 序列 化 组 件 协议 缓冲 区 (Protocol buffers, 
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让 


一 格式 的 数据 定义 了 对 应 的 序列 化 格式 ， 实 现 对 星 表 数 


Protobuf) 为 基础 ， 并 针对 星 表 这 
据 的 高 效 存 取 。 

Protobuf 能 够 将 内 存 中 数据 按照 事先 约定 的 格式 写 入 程序 与 程序 之 间 ， 或 者 通过 网 络 
传递 ， 也 可 以 写 入 到 磁盘 保存 。 功 能 上 类 似 于 可 扩展 标记 语言 (extensible markup language 
XML) 和 JavaScript 对 象 简 谱 ee Object Notation, JSON). (HES ZAM NZ, 
Protobuf 需要 事先 约定 好 一 套 协 议 ， 过 为 接口 描述 语言 (interface description language, 
IDL)， 读 写 时 需要 持 有 相同 的 IDL. IDL 规定 的 格式 以 二 进 制 的 形式 存储 ， 并 使 
多 种 压缩 算法 ， 避 免 了 数字 与 字符 串 之 间 的 相互 转换 。 并 且 支 持 C JAVA, Python 
Go 等 主流 的 语言 。 

本 文 定义 了 星 表 在 Protobuf 中 的 传输 格式 ， 包 括 一 个 “Catalog” 项 用 于 储存 星 表 信 
息 ， 内 容 如 表 暂 所 示 ， 其 中 包括 星 表 文件 的 文件 名 、UNIQ 编号 、 星 表 头 信息 、 总 行 数 信息 
等 ， 同 时 内 部 有 任意 数量 的 “CatalogLine” 项 ， 用 于 存储 天 体 信息 ， 内 容 如 表 回 所 示 ， 其 
中 包括 了 天 体 的 坐标 、 区 域 编号 ， 分 别 以 浮 点 数 和 整数 进行 存 取 。 而 天 体 的 其 他 信息 则 保存 
为 字符 串 类 型 ， 以 减少 对 数据 的 解析 时 间 。 


表 2 使 用 Protocol buffers 定义 的 Catalog 项 


字段 名 类 型 说 明 
name string 星 表 的 名 字 
uniq int32 星 表 内 天 体 所 在 区 域 的 UNIQ 编号 
total_lines int32 星 表 的 天 体 数量 
header String 星 表 的 表 头 信息 


line repeated CatalogLine ” 星 表 中 的 天 体 ，repeated 表示 数量 可 为 1 至 多 个 


表 3 使 用 Protocol buffers 定义 的 CatalogLine 项 


字段 名 ”类 型 说 明 
pix int32 ”该 天 体 所 在 区 域 的 编号 
ra double 该 天 体 的 赤 经 
dec double RAM RAG 


line string 该 天 体 的 其 他 信息 


根据 定义 的 传输 格式 ，Protobuf 可 以 自动 生成 不 同 编程 语言 下 的 序列 化 和 反 序 列 化 
的 代码 。 这 使 得 在 星 表 切 分 、 归 并 和 检索 时 ， 能 够 根据 需要 ， 将 内 存 中 的 星 表 序列 化 为 
Protobuf 格式 并 保存 到 硬盘 对 应 的 文件 中 ， 以 及 从 硬盘 中 读 取 文 件 并 反 序 列 化 回 内 存 ， 实 
现 了 对 星 表 数 据 的 高 效 存 取 。 


5 多 个 大 规模 星 表 的 融合 


在 暂 现 源 搜寻 时 往往 需要 同时 对 多 个 不 同 波段 的 星 表 ， 或 者 多 个 不 同 观测 时 间 星 表 进 
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行 检 索 。 为 了 加 快 检 索 速度 ， 可 以 提前 将 多 个 星 表 合 并 ， 即 对 一 个 星 表 中 的 天 体 与 其 他 星 表 
交叉 证 认 ， 找 到 对 应 天 体 并 对 各 项 参数 加 以 融合 ， 从 而 实现 一 次 检索 就 可 以 获得 多 个 星 表 中 
的 数据 。 

由 于 不 同 望远镜 观测 时 的 精度 差异 等 多 种 原因 导致 相同 的 源 在 不 同 的 星 表 中 的 位 置 不 
是 完全 相同 的 。 一 般 来 说 ， 对 于 误差 半径 分 别 为 m、ra 的 两 个 星 表 ， 当 两 个 天 体 的 角 距 离 
d <3 fr? +73 的 时 候 ， 就 可 以 认为 是 同一 天 体 ”。 位 于 HEALPix 划分 区 域 边缘 的 天 体 误 
差 半 径 可 能 会 覆盖 到 相 邻 区 域 ， 所 以 在 计算 某 一 个 区 域 的 距离 时 还 需要 读 取 与 该 区 域 相 邻 
的 几 个 区 域内 的 天 体 ， 此 时 可 以 通过 选择 合适 的 遍历 顺序 和 增加 缓存 以 提升 效率 。 

5.1 ” 星 表 在 内 存 中 的 索引 

将 天 体 按 切 分 到 不 同 的 星 表 文件 时 ， 天 体 在 文件 内 的 顺序 即 切 分 时 的 读 入 顺序 。 若 需要 
传 索 某 个 文件 内 的 天 体 时 ， 顺 序 检索 效率 不 高 ， 可 以 将 该 文件 全 部 读 入 到 内 存 ， 并 在 内 存 中 
建立 KD-Tree， 实 现 二 维 检索 ， 提 高 检索 速度 。 

KD-Tree 是 一 种 对 空间 多 维 数据 高 效 索 引 的 数据 结构 。KD-Tree 会 在 建立 时 在 每 层 选 
择 不 同 维度 的 数据 计算 中 位 数 并 作为 索引 节点 ， 最 终 构建 出 一 颗 比 较 均 衡 的 二 又 树 。 而 
KD-Tree 在 检索 时 ， 则 按照 层 数 分 别 将 不 同 维度 的 数据 与 树 中 的 数据 进行 对 比 ， 从 而 能 
高 效 检索 高 维 数据 。 

根据 之 前 的 切 分 情况 ， 以 星 表 文件 作为 建立 KD-Tree 的 单位 ， 若 某 次 检索 的 区 域 覆 盖 
了 多 个 星 表 文 件 ， 则 需要 在 内 存 中 建立 多 个 KD-Tree。 此 时 可 以 将 建立 好 的 KD-Tree 缓存 
到 内 存 中 ， 供 之 后 的 检索 使 用 ， 避 免 重复 读 取 ， 提 高 效率 ， 如 图 四 所 示 。 而 缓存 大 小 不 可 能 
无 限 大 ， 特 别 是 在 同时 运行 多 个 任务 时 ， 内 存 中 的 KD-Tree 数量 达到 上 限 ， 则 可 以 选择 合 
适 的 缓存 蔡 换 算法 ， 例 如 先进 先 出 (FIFO)， 或 者 最 近 最 久未 使 用 (LRU) 等 ， 替 换 缓存 中 的 
KD-Tree。 各 种 蔡 换 算法 在 计算 机 等 领域 已 经 被 深入 研究 过 ， 本 文 将 通过 实验 探究 不 同 缓存 
算法 在 星 表 证 认 时 的 性 能 差异 以 及 最 优 缓存 的 大 小 。 


E A-o 


VE: 当 对 a 区 域 交 叉 证 认 时 ， 为 了 避免 边界 漏 源 问题 ， 需 要 读 取 另 一 星 表 的 a 及 周围 8 个 区 域 的 天 体 ， 并 按照 
区 域 建立 对 应 的 KD-Tree。 可 以 将 这 些 KD-Tree 分 别 缓存 在 内 存 中 ， 当 对 相 邻 的 b 区 域 证 进行 认 时 ， 仅 需 读 
取 右 侧 3 个 区 域 并 建立 KD-Tree 即 可 ， 对 c 区 域 证 认 时 也 是 同 理 。 


图 7 KD-Tree 检索 示意 图 


5.2 ”使 用 Peano-Hilbert 曲线 遍历 星 表 

在 对 HEALPix 按照 NESTED 模式 编号 顺序 遍历 时 ， 路 径 在 空间 表现 为 Z 曲 线 的 形 
式 ”。 该 顺序 可 以 高 效 地 为 平面 或 空间 中 的 一 组 点 集 构 建 四 又 树 或 者 八 叉 树 ”™。 而 Z 曲 
线 是 在 不 同 区 域 的 边界 处 有 比较 大 的 转折 ， 即 会 跳 转 到 一 个 不 相 邻 的 区 域 中 。 在 对 星 表 遍 历 
时 往往 会 导致 之 前 的 缓存 大 量 失效 ， 降 低 效率 。 为 了 克服 这 个 缺点 ， 本 文 尝 试 在 对 星 表 遍 历 
时 使 用 Peano-Hilbert 曲线 代替 原 有 的 Z 曲线 。 该 曲线 通过 对 HEALPix 的 区 域 重新 进行 
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编号 ， 实 现 了 相 邻 编号 的 两 个 区 域 在 天 球 上 也 相 邻 ， 因 此 对 星 表 进行 遍历 时 会 一 直 访 问 相 邻 
的 区 域 ， 能 够 充分 利用 已 有 的 缓存 。 按 编号 顺序 分 别 对 NESTED 自 带 编号 和 Peano-Hilbert 
曲线 编号 对 星 表 进 行 遍历 ， 得 到 曲线 对 比如 图 加 所 示 。 


191 0 1 
NESTED 模式 编号 Peano-Hilbert 曲线 编号 
b 


a) 


YE: a) 按 NESTED 模式 编号 遍历 星 表 得 到 的 Z 曲线 ，b) 按 Peano-Hilbert 曲线 编号 遍历 星 表 得 到 的 曲线 。 


8 按 NESTED 模式 编号 顺序 和 Peano-Hilbert 曲线 编号 顺序 遍历 星 表 示意 图 


6 实验 分 析 


本 实验 使 用 LAMOST DR7 星 表 作为 测试 数据 ， 运 行 平 台 使 用 国家 天 文科 学 数据 中 心 
提供 的 云 虚 拟 机 ， 配 置 如 下 : 

1) CPU W Intel(R) Xeon(R) CPU E5-2690 4 Core @ 2294.686 MHz; 

2) 内 存 为 8 GB; 

3) 硬盘 I/O 速度 为 82.5 MB/s; 

4) 操作 系统 为 Ubuntu 20.04.4 LTS; 

5) 编程 语言 为 C++. Python. 

6.1 不同 切 分 方式 产生 的 星 表 文 件 对 比 

分 别 对 测试 星 表 进 行 “ 激 进入 “中 立 和 “保守 ”模式 的 动态 切 分 和 按 固定 层级 的 切 分 。 
测试 动态 切 分 使 用 的 切 分 冰 值 为 1000， 数 据 如 图 加 和 表 团 所 示 。 

可 以 看 出 ,“ 激 进 ” 方 式 切 分 出 的 星 表 的 天 体 数 量 均 小 于 闵 值 ， 大 部 分 集中 在 [200， 
1000) 之 间 。“ 中 立 ” 方 式 切 分 出 的 星 表 的 天 体 数 量 绝 大 部 分 集中 在 [1000, 4000] 之 间 ; 由 
于 某 些 南天 区 的 目标 过 少 ， 导 致 极 少量 的 文件 小 于 羡 值 ， 同 时 ,“ 中 立 ” 模 式 下 切 分 出 的 星 
表 的 变异 系数 也 是 所 有 模式 中 最 低 的 ， 说 明星 表 的 离散 程度 小 于 其 他 模式 。“ 保 守 ” 方 式 切 
分 出 的 星 表 均 大 于 1000， 特 别 是 一 部 分 星 表 的 天 体 数 量 过 大 ， 最 大 约 105， 其 变异 系数 也 
是 各 个 方式 中 最 大 的 。 三 个 固定 层级 切 分 的 结果 变异 系数 相差 不 大 ， 攻 大于“ 中立” 和“ 激 
进 ” 模 式 ， 小 于 “保守 ”模式 。 

切 分 出 的 结果 与 预期 相符 ,“ 中 立 ” 方 式 切 分 出 的 星 表 较 其 他 两 种 切 分 方式 和 固定 切 分 
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—— NSIDE=64 
—— NSIDE=32 
一 一 “保守 ”模式 —— NSIDE=16 
—-- BEL 一 -- BOE 
—--4X WE —-- 4X BHA 
e È 
以 以 
< & 
ee we 
10° 
0 5000 10000 15000 20000 0 5000 10000 15000 20000 
按 体积 排序 后 的 文件 id 按 体积 排序 后 的 文件 id 
a) b) 


VE: a) RABE PAWS MT Us}; b) 是 使 用 相近 的 三 个 层级 对 星 表 做 静态 切 分 。 


图 9 将 相同 星 表 按 照 不 同方 式 切 分 并 排序 后 的 大 小 曲线 


表 4 不 同 切 分 方式 的 数据 对 比 


类 型 星 表 文 件 总 数 ”平均 行 数 ” 行 数 最 大 值 ” 行 数 最 小 值 ”标准 差 ”变异 系数 
动态 层级 (保守 ) 3 798 2 746.49 778 747 1 002 12 965.52 4.7207 
动态 层级 (中 立 ) 6 233 1 673.54 3 818 178 565.57 0.337 9 
动态 层级 (激进 ) 23 649 441.08 1 000 2 199.05 0.451 2 
固定 层级 (k=4) 1 578 6 610.39 65 792 1 6 016.63 0.9101 
固定 层级 (k=5) 5 972 1 746.68 20 835 1 1 608.43 0.920 8 
固定 层级 (k=6) 22 891 455.69 5 917 1 421.35 0.924 6 


6.2 ”Protobuf 格 式 与 格式 星 表 的 读 取 速 度 对 比 

本 文 将 LAMOST DR7 星 表 分 别 在 “中 立 ” 模 式 下 按照 不 同 的 阔 值 切 分 为 CSV 格式 和 
Protobuf 格式 ， 并 分 别 对 其 全 部 读 取 ， 不 同 格式 切 分 后 的 文件 体积 如 表 回 和 表 回 所 示 ， 测 
试 读 取 的 时 间 如 图 ml a) 所 示 。 可 以 看 出 ， 随 着 切 分 疮 值 的 增加 ， 两 种 格式 的 星 表 读 取 时 
间 都 逐渐 减 小 直至 达到 稳定 。Protobuf 格式 在 文件 体积 略 大 于 CSV 格式 的 情况 下 ， 当 阔 值 
大 于 1000 之 后 的 星 表 读 取 速 度 比 CSV 格式 快 50% 以 上 ， 基 本 达到 硬盘 连续 读 取 I/O 的 
速度 之 后 ， 本 文 又 对 这 两 种 格式 的 星 表 进行 了 自 交叉 证 认 (selfmatching) 的 测试 ， 即 先 将 
未 切 分 星 表 全 部 读 入 到 内 存 并 按 HEALPix 编号 排序 作为 源 星 表 ， 按 天 体 在 源 星 表 中 的 顺序 
计算 对 应 切 分 后 目标 星 表 文件 的 编号 。 若 文件 己 存 在 于 内 存 中 ， 则 与 内 存 中 的 KD-Tree 交 
叉 证 认 ; 若 未 存在 ， 则 删除 内 存 中 的 KD-Tree， 并 读 取 对 应 的 文件 ， 建 立新 的 KD-Tree H 
行 交叉 证 认 。 统 计 不 同 阐 值 下 的 证 认 时 间 ， 结 果 如 图 中 b) Aros. AWA, be 
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#5 CSV 格式 在 不 同 阔 值 下 切 分 后 文件 和 原始 星 表 的 体积 对 比 
BE 单个 文件 平均 体积 /B ”文件 总 数 总 体积 /B 
100 59 804 59 804 3 406 675 650 
200 112 524 30 275 3 406 675 650 
500 287 192 11 862 3 406 675 650 
1 000 546 555 6 233 3 406 675 650 
2 000 1 136 316 2 998 3 406 675 650 
5 000 2 695 155 1 264 3 406 675 650 
10 000 5 584 714 610 3 406 675 650 
20 000 10 679 234 319 3 406 675 650 
50 000 25 422 953 134 3 406 675 650 
100 000 50 098 171 68 3 406 675 650 
200 000 89 649 359 38 3 406 675 650 
500 000 200 392 685 17 3 406 675 650 
1 000 000 262 051 973 13 3 406 675 650 
原始 星 表 3 396 245 328 1 3 396 245 328 
YE: 原始 星 表 换 行 符 是 \n， 程 序 切 分 后 星 表 换 行 符 是 \r\n， 导 致 文件 总 体积 略 有 增加 。 
表 6 Protobuf 格式 在 不 同 阅 值 下 切 分 后 文件 的 体积 对 比 
BE 单个 文件 平均 体积 /B ”文件 总 数 总 体积 /B 
100 61 672 59 804 3 688 260 196 
200 121 753 30 275 3686 069 170 
500 310 631 11 862 3 684 699 641 
1 000 591 093 6 233 3 684 282 465 
2 000 1 228 834 2 998 3 684 043 860 
5 000 2 914 491 1 264 3 683 916 770 
10 000 6 039 130 610 3 683 869 172 
20 000 11 548 113 319 3 683 847 953 
50 000 27 491 301 134 3 683 834 379 
100 000 54 173 964 68 3 683 829 559 
200 000 96 942 826 38 3 683 827 378 
500 000 216 695 639 17 3 683 825 864 
1 000 000 283 371 198 13 3 683 825 578 
NSS 300}-_— csv 
— Protobuf n — Protobuf 
F: 
E 
10? 10° 10° 10° “108 10 103 10! 10° 108 
EK) RELA) 
a) b) 


图 10 


HE: a) ANTAIBUEL Pei RE HR; b) PERE TF Self-Matching 速度 
对 切 分 后 Protobuf 格式 与 CSV 格式 的 星 表 读 取 和 证 认 速 度 对 比 
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增 大 ， 两 种 格式 的 星 表 证 认 时 间 都 先 减 小 后 增 大 。CSV 格式 的 星 表 在 闪 值 为 1 000 左右 时 
速度 最 快 ， 需 要 155 s 左右 ; 而 Protobuf 格式 的 星 表 在 阅 值 为 10 000 时 速度 最 快 ， 只 需 约 
116 s 即 可 完成 。 因 此 Protobuf 格式 对 星 表 存 储 和 交叉 证 认 时 的 效率 优 于 CSV. 

6.3 不同 曲 线 与 缓存 算法 在 星 表 证 认 时 的 效率 对 比 


对 不 同 切 分 层级 ， 分 别 用 HEALPix NESTED 模式 下 自 带 的 ZI 


1 线 和 Peano-Hilbert HH 


线 裔 历 整个 天 区 ， 在 遍历 到 第 i 个 区 域 时 ， 同 时 读 取 ? 和 以 i 为 中 心 的 上 、 下 、 左 、 右 、 左 
上 、 左 下 、 右 上 、 右 下 共 九 个 区 域 的 信息 。 若 内 存 中 已 经 缓存 了 该 区 域 的 信息 ， 则 为 缓存 命 


rH; 若 不 存在 ， 则 为 缓存 失效 。 此 时 将 该 


出 (FIFO) 绥 存 蔡 换 策略 进行 测试 。 


记录 在 不 同 层级 和 不 同 缓存 大 小 的 缓存 失效 次 数 ， 两 种 


合 在 四 个 不 同 的 层级 下 的 结果 如 图 


Xx 10° 
—— Peano-Hilbert 线 ， FIFO 
25 -一 Peano-Hilbert 曲 线 , LRU 
一 Z 曲 线 , FIFO 
， — Z 曲 线 , LRU 
wR 20 
x 
wm 15 
K 
10 
5 
0 10 20 30 40 50 
缓存 大 小 
a) 
Xx 10° 
7 一 - Peano-Hilbert 曲 线 , FIFO 
一 一 Peano-Hilbert 曲 线 , LRU 
一 Z 曲 线 , FIFO 
— Z 曲 线 , LRU 
Ro 5 
NS 
Z 
aK 
3 
1L 1 1 A 1 1 
0 10 20 30 40 50 
缓存 大 小 
c) 


图 11 
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区 域 的 信息 从 磁盘 中 读 取 并 加 入 到 缓存 ， 若 缓存 区 
已 满 ， 则 调用 蔡 换 算法 选择 一 个 区 域 奉 换 ， 分 别 使 用 最 久未 使 用 (LRU) 替换 策略 与 先入 先 


线 和 两 种 缓存 算法 的 四 种 组 


加 所 示 。 可 以 看 出 : 


X10? 
—— Peano-Hilbert ll] 28, FIFO 
—— Peano-Hilbert 曲 线 , LRU 
一 一 Z 曲 线 , FIFO 
— Z 曲 线 , LRU 

0 

Xx 10° 
-一 Peano-Hilbert 曲 线 , FIFO 
-一 Peano-Hilbert 曲 线 , LRU 
—— Z 曲 线 , FIFO 
— Z 曲 线 , LRU 

0 10 20 30 40 50 
缓存 大 小 

d) 


不 同 曲线 和 缓存 替换 算法 在 NSIDE =16, 64, 256, 1024 时 的 失效 次 数 曲线 


1) 缓存 越 大 ， 缓 存 失 效 的 次 数 会 越 小 ， 但 单位 缓存 增加 带 来 的 性 能 提升 也 随 之 减少 。 
2) LRU 的 效率 要 好 于 FIFO，Peano-Hilbert 曲线 的 效率 要 好 于 Z 曲线 。 
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3) 遍历 曲线 和 缓存 蔡 换 算法 的 效率 差距 几乎 不 受 ke 值 大 小 的 影响 。 

A) 少量 的 缓存 大 小 就 可 以 大 幅度 减少 缓存 失效 的 次 数 ， 提 高 效率 。 例 如 使 用 Peano- 
Hilbert+LRU 方法， 与 不 缓存 +FIFO 相 比 ， 当 缓存 大 小 为 9 时 ， 就 可 以 减少 大 约 66.7% 
的 读 取 次 数 ， 缓存 大 小 增 大 到 20 时 ， 则 可 以 减少 77.4% 的 读 取 次 数 。 

5) 联合 使 用 Peano-Hilbert 曲线 和 LRU 算法 与 Z 曲线 和 FIFO 之 间 的 差异 在 缓存 大 小 
为 9 时 达到 最 大 ， 接 近 1 倍 。 

由 此 可 见 ， 通 过 使 用 Peano-Hilbert 曲线 和 LRU 的 缓存 蔡 换 策略 可 以 有 效 提 升 在 星 表 
融合 时 对 天 体 交 叉 证 认 的 效率 。 


7 结 论 


针对 大 规模 星 表 的 高 效 检索 问题 ， 本 文 以 文件 作为 存储 的 基础 ， 提 出 了 包括 星 表 的 切 
分 、 索 引 、 合 并 在 内 的 一 系列 解决 方案 。 如 图 四 所 示 ， 一 种 自 适应 密度 的 切 分 算法 ， 能 
够 在 有 限 内 存 的 情况 下 将 大 规模 星 表 切 分 成 多 个 限定 大 小 范围 的 子 星 表 ， 方 便 后 续 的 检 
索 等 操作 。 经 过 测试 ， 本 文 提出 的 “中 立 ” 模 式 切 分 算法 可 以 将 切 分 后 的 星 表 大 小 限制 在 
[7T,4 x TT] 之 间 ， 比 其 他 模式 更 均匀 ， 为 星 表 高 效 检索 奠定 了 基础 。 


切 分 归并 | ge 
A | AFE 多 星 表 合 并 


[EFEK FEKA 
S Riser eee 0 ~ mers Hilbert] 

—— Parm | 
无 序 星 表 B Fe 有 序 星 表 B | = MAIA J 
人 | | 合并 后 星 表 
|| A+B+C | | 
无 序 星 表 AFERO mm | | 
CSV、FITS 等 格式 Protobuf 格 式 Protobuf 烙 式 


注 : 加 粗 文字 是 本 文 创 新 部 分 。 


12 ”本 文 提出 的 解决 方案 流程 图 


为 了 更 快 地 检索 星 表 ， 本 文 引入 开源 序列 化 库 Protocol Buffers 作为 星 表 在 磁盘 中 的 存 
储 格式 。 该 库 能 够 将 天 体 坐 标 以 二 进 制 格式 存储 ， 在 切 分 与 检索 时 避免 了 浮 点 数 与 字符 串 之 
间 的 相互 转换 造成 的 性 能 消耗 ， 提 升 了 星 表 的 读 取 效 率 。 

在 合并 星 表 时 ， 需 要 读 取 相 邻 星 表 以 解决 漏 源 问题 。 本 文通 过 改进 HEALPix 的 遍历 方 
式 ， 以 Peano-hilbert 曲线 代替 原 有 的 Z 曲线 ， 并 引入 缓存 和 替换 算法 ， 减 少 了 星 表 合 并 时 
的 文件 读 取 次 数 ， 提 高 了 合并 的 速度 。 

在 本 文 工 作 的 基础 上 ， 未 来 可 对 诸多 部 分 进行 进一步 优化 与 创新 。 例 如 ， 本 文 所 述 检索 
方法 与 测试 结果 是 在 单线 程 下 取得 ， 未 来 可 将 该 方法 扩展 至 多 线程 ， 或 利用 分 布 式 集群 等 方 
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式 将 检索 任务 发 送 到 多 个 子 节 点 处 理 。 男 外 ， 本 文 交叉 证 认 的 部 分 仅 依靠 坐标 间 角 距离 来 判 


断 是 否 同 源 ， 未 来 可 将 天 体 的 亮度 或 其 他 参数 作为 判 据 引 入 ， 以 提升 在 密集 星 场 等 复杂 场合 
交叉 证 认 的 准确 度 。 本 文 针对 文件 而 设计 诸多 创新 技术 ， 未 来 可 以 尝试 移植 到 数据 库 等 其 他 
非 文件 的 场合 ， 并 加 以 优化 ， 以 期 待 实现 更 好 的 性 能 。 
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Abstract: Transient source searching, which aims at discovering changing objects in the sky, 
requires wide-field telescopes to survey the sky continuously. After sources are extracted on 
images, they will be cross-matched with existing large-scale catalogs to detect which object 
is changing. This step must be very fast, or it will slow down the data processing and cannot 
retrieve real-time discovery. But current referenced catalogs, e.g. SDSS, Gaia, Pan-STARRS, 
contain billions of objects. It is very difficult to complete the cross-matching step in seconds 
using traditional methods. In this paper, we propose a solution for the fast retrieval of 
hundreds of GB or even TB of catalogs with limited memory. Catalogs will be indexed in 
forms of individual files instead of database. A multi-resolution dynamic splitting algorithm 
based on HEALPix is introduced. It divides the catalogs into appropriate and uniform 
files according to the density of objects in different sky regions. A searching scheme is also 
designed with this algorithm. In order to improve the file reading speed, we create a medium 
storage mechanism to save file. The mechanism is based on Protocol Buffers, an open source 
component. The Peano-Hilbert curve is also applied to replace the HEALPix’s original Z- 
curve, to fast traverse the catalog. With test, it effectively improves the cache hit ratio 
and data fusion efficiency on large-scale catalogs. With these improvements, billions objects 
searching and cross-matching in a limited hardware becomes possible. Our solution will 
help the implementation of changing object real-time detection, and other rapid detecting 


projects. 
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